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基于 词 向 量 的 汉语 成 语 的 语义 透明 度 分 析 

摘要 : 本 文 基于 语义 透明 度 的 计算 公式 ， 计 算 了 部 分 汉语 成 语 的 语义 透明 度 。 基 于 实验 结 
果 ， 我 们 发 现 汉语 成 语 的 语义 透明 度 整 体 偏 低 ， 这 是 因为 成 语 蕴 含 着 丰富 的 文化 意义 ， 若 
不 了 解 成 语 背 后 的 文化 故事 ， 便 很 难 理解 成 语 的 语义 ， 致 使 其 语义 透明 度 低 ， 成 语 字 面 义 
与 衍生 义 之 间 的 关联 度 也 是 影响 成 语 语义 透明 度 的 关键 因素 ， 关 联 度 高 则 语义 透明 度 也 
高 。 语 义 透 明度 相对 较 高 的 成 语 多 为 联合 式 语 法 结构 ， 并 且 成 语 整体 的 语义 与 两 个 组 成 部 
分 的 语义 经 常 相等 或 相近 。 

关键 词 : 成 语 ， 语 义 透 明 ， 语 法 结构 


0. 引言 


1962 年 ， 英 国 功能 派 语义 学 家 $. Ullmann 在 《语义 学 : 意义 科学 导论 》 一 书 中 提 到 “ 语 
义 透明 / 隐 星 的 词 “的 说 法 。Schreuder&Baayen (1995) 对 语义 透明 度 进行 了 诠释 : 一 个 复 
合 词 与 其 组 成 成 分 之 间 语 义 层面 上 的 透明 度 关系 取决 于 复合 词 整 体 及 其 构成 词素 语义 表征 
集合 之 间 的 重 著 程度 。“ 语 义 透明 度 ” 这 一 理论 大 概 于 90 年 代 前 后 被 引进 国内 ， 随 后 很 快 
在 语言 学 、 教 育 学 以 及 心理 学 等 多 种 领域 里 均 产 生 了 很 大 的 影响 。 目 前 国内 学 界 普遍 认可 
的 是 王 春 茂 、 彭 聘 龄 (1999) 提出 的 关于 语义 透明 度 的 界定 : 语义 透明 度 是 指 复合 词 的 语义 
可 从 组 成 复合 词 的 各 个 词素 的 语义 推 知 的 程度 ， 其 操作 定义 为 整 词 与 其 词素 的 语义 相关 程 
度 。 语 义 透 明 通常 被 分 为 : 透明 、 比 较 透 明 、 比 较 星 涩 、 完 全 星 涩 四 种 类 型 。 

语义 透明 度 的 研究 在 儿童 阅读 和 对 外 汉语 等 领域 都 有 一 定 的 应 用 价值 ， 徐 彩 华 
(2001) 研究 了 语义 透明 度 对 于 儿童 阅读 的 影响 ， 认 为 透明 词 有 利于 学 习 ， 不 透明 词 对 学 
习 造 成 一 定 障 碍 ; 柳 莉 〈2011) 发 现在 对 外 汉语 教学 过 程 中 ， 透 明度 高 的 词语 ， 学 生 容 易 
把 握 ， 透 明度 较 低 的 词 ， 学 生 把 握 起 来 比较 困难 ， 常 常 有 望 文生 义 的 情况 。 

成 语 是 一 种 相沿 习 用 、 含 义 丰富 、 具 有 书面 语 色彩 的 固定 短语 。 成 语 在 表意 上 与 一 般 
固定 短语 不 同 ， 它 的 意义 往往 并 非 其 构成 成 分 意义 的 简单 相 加 ， 而 是 在 其 构成 成 分 意义 的 
基础 上 进一步 概括 出 来 的 整体 意义 ， 有 具有 意义 整体 性 的 特点 。 成 语 在 语文 教学 以 及 汉语 二 
语 教学 中 都 扮演 着 重要 的 角色 ， 学 生 掌 握 一 定量 的 成 语 ， 有 利于 写作 和 言语 交际 。 如 何 确 
定 哪 些 成 语 适 合 哪 一 教学 阶段 ， 我 们 需要 从 多 个 角度 衡量 成 语 的 学 习 难 度 。 本 文 将 从 成 语 
的 语义 透明 度 着 手 ， 计 算 分 析 部 分 汉语 成 语 的 语义 透明 ， 以 期 望 为 汉语 成 语 研究 者 提供 些 
许 参考 。 


1. 研究 现状 
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在 影响 词语 透明 度 的 因素 和 语义 透明 度 的 影响 研究 方面 ， 许 艳 华 〈2014) 利用 spss 


方差 分 析 确 定 影 响 语义 透明 度 的 因素 ， 采 用 多 元 回归 的 方式 来 计算 不 同 因素 的 影响 程度 ， 


给 不 同 的 因素 赋予 不 同 的 权重 ， 从 而 构造 出 语义 透明 度 的 计算 公式 ， 孙 威 〈2016) 基于 类 


义 词 典 《 同 义 词 词 林 》， 以 双 音节 复合 词 的 词素 义 作为 参考 标准 , 通过 计算 复合 词 整 词 与 词 
素 之 间 的 语义 距离 , 评估 两 者 间 语 义 相关 程度 , 构建 语义 透明 度 计算 公式 从 而 评估 划分 透明 


度 等 级 。 


在 成 语 语义 透明 度 研 究 方面 ， 付 培 丽 〈2012) 以 语素 义 是 否 常用 ， 成 语 整体 义 是 否 字 
面 义 为 判定 标准 ， 将 469 个 成 语 划分 为 四 个 等 级 。 赵 丹 〈2016) 从 对 外 汉语 教学 研究 的 角 


度 ， 将 学 习 者 对 成 语 语素 义 的 认 知 难度 作为 成 语 语义 透明 度 判 定 标准 ， 将 透明 度 按 完 全 透 
明 到 完全 晓 涩 氛围 了 四 个 级 别 ， 对 不 同 语言 水 平 学 习 者 的 成 语 语义 透明 度 差异 进行 了 考 


察 。 吴 迪 〈2016) 考察 了 语义 透明 度 因 素 对 成 语 使 用 率 的 影响 ， 发 现 高 透明 度 成 语 的 使 有 


频率 高 于 低 透 明成 语 。 柴 湘 露 (2018) 对 比 成 语义 变 前 后 ， 发 现成 语义 变 往往 伴随 成 语 字 


义 显 著 度 、 内 部 组 


义 
更 透明 的 倾向 。 


在 英语 成 语 语 


合 关系 显赫 度 、 字 面 义 与 衍生 义 关 联 度 的 提高 ， 成 语 语义 变化 具有 语义 


义 透 明 研 究 方面 ，Hee-Rahk Chae (2015) 通过 分 析 成 语 的 内 部 结构 ， 认 


为 英语 成 语 中 的 形容 词 没有 承担 成 语 的 部 分 意义 ， 所 以 成 语 的 语义 透明 度 会 比较 低 。Frank 
Boers (2015) 通过 比较 母语 者 和 二 语 学 习 者 对 成 语 语义 透明 度 的 评级 ， 发 现 两 者 的 评级 之 间 


存在 显著 的 差异 。 


目前 关于 成 语 
量 地 分 析 。 本 文 以 汉语 成 语 为 研究 对 象 ， 利 用 词 向 量 ， 计 算 了 部 分 成 语 的 语义 透明 度 ， 基 


的 语义 透明 度 的 研究 方法 主要 是 依靠 人 工 评定 ， 效 率 低下 ， 无 法 定量 批 


于 实验 结果 ， 探 究 影响 汉语 成 语 的 语义 透明 度 的 因素 。 
2. ”语义 透明 度 计算 公式 


的 语义 相似 度 高 ， 


在 之 前 的 研究 中 ， 我 们 已 经 提出 了 计算 汉语 复合 词语 义 透 明度 的 公式 。 根 据 语义 透明 
度 的 的 定义 ， 将 语 


义 透明 度 转化 为 各 个 词素 的 语义 与 整 词语 义 的 相似 度 。 如 果 词 素 与 整 词 
那么 说 明 能 够 从 词素 推导 出 复合 词语 义 的 程度 就 高 ， 词 素 与 整 词 的 语义 


相似 度 低 ， 那 么 从 词素 推导 出 复合 词语 义 的 程度 就 低 。 用 词 向 量 代表 整 词 的 语义 ， 字 向 量 


代表 词素 的 语义 ， 


通过 计算 词 与 字 的 语义 相似 度 ， 计 算 复合 词 的 语义 透明 度 。 我 们 将 构 词 


语素 字 向 量 相 加 再 取 均 值 ， 然 后 和 整 词 的 向 量 做 相似 度 计 算 ， 即 可 以 得 到 整 词 的 语义 透明 
度 。 我 们 的 语义 透明 度 计算 公式 如 下 : 
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二 Plci (1) 


C 
Wh n 


cr 是 词素 向 量 的 平均 值 ，c; 为 词素 向 量 ，n 为 组 成 复合 词 的 词素 数 。 


_ Wxcm (2) 
~ Vom 


选用 余弦 距离 计算 语义 相似 度 ， 如 函数 2 所 示 ，s 为 词素 平均 值 和 复合 词 整 词 的 相似 
度 ， 和 为 整 词 向 量 。 


wr = s 十 0.5Xs (3) 

为 了 便于 分 析 ， 如 公式 〈3) 我 们 将 〈2) 得 到 语义 相似 度 进行 妇 一 化 处 理 。m 即 为 复 
合 词 的 语义 透明 度 。 
在 本 文中 ， 我 们 将 计算 成 语 的 语义 透明 度 ， 在 计算 时 ， 现 将 成 语 切 成 语素 。 如 “ 老 马 
识 途 ” 切 为 “ 老 ”、“ 马 ”、“ 识 ”、“ 途 ”四 个 语素 。“ 贺 轿 吞 囊 ” 由 于 “ 圆 回 ” 切 为 
“ 圆 固 ”、“ 切 ”、“ 囊 ”三 个 语素 ，“ 圆 加 ”是 一 个 语素 ， 所 以 不 再 切 分 。 将 切 分 得 到 
的 语素 的 向 量 相 加 ， 然 后 取 平 均 ， 再 与 整个 成 语 的 向 量 做 相似 度 计算 ， 对 结果 进行 归 一 
化 ， 即 得 到 该 成 语 的 语义 透明 度 。 


3.1 数据 集 和 实验 结果 

本 文中 ， 我 们 将 经 过 清洗 的 6. 26 维基 百科 无 标注 语 料 作为 数据 集 。 选 择 word2vector 
作为 词 向 量 训练 工具 。word2vector 是 Google2013 年 推出 的 用 于 获取 词 向 量 的 工具 包 ， 
word2vector 可 以 根据 给 定 的 语料库 ， 通 过 优化 后 的 训练 模型 快速 有 效 地 将 一 个 词语 表达 
成 向 量 形式 ， 本 文选 用 赵 哲 〈2017) 提出 的 n-gram 方法 优化 word2vector 模型 训练 词 向 
量 ， 这 种 方法 可 以 通过 学 习 n-gram 共 现 信息 从 而 提高 词 向 量 的 质量 ， 捕 捉 到 更 多 的 语义 信 


省 


3. 2 实验 结果 与 分 析 

随机 从 《新 华 成 语词 典 》 中 抽取 400 个 成 语 ， 利 用 第 二 节 介 绍 的 语义 透明 度 计算 公式 
计算 成 语 的 语义 透明 度 。 结 果 如 表 1。 从 表 1 所 示 结 果 来 看 ， 成 语 的 语义 透明 整体 偏 低 ， 
皆 低 于 0. 6。 
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NO 成 语 透明 度 成 语 透明 度 成 语 透明 度 
1 甚 崖 峭壁 0. 584 相辅相成 0. 425 完 壁 归 起 0. 243 
2 深情 厚谊 0. 508 心甘情愿 0. 419 小 心 取 器 0.237 
3 狼吞虎咽 0. 482 优胜 劣 汰 0. 399 三 顾 茅 庐 0. 231 
4 诚心 诚意 0. 467 | 0. 363 助 纠 为 虐 0. 223 
5 苦 尽 甘 来 0. 449 战 战 殊 效 0. 361 卧薪尝胆 0. 205 
6 各 抒 己 见 0. 445 吞 吞吐 吐 0. 361 破釜沉舟 0. 198 
7 肆 无 忌 恒 0. 442 后 顾 之 忧 0. 361 乐 不 思 旬 0. 178 
8 飞禽 走兽 0. 441 名 胜 古 迹 0. 360 东 施 效 构 0.171 
9 于 三 落 四 0. 437 日 新 月 异 0. 334 望 梅 止 渴 0. 134 
10 知足 常 乐 0. 436 雪上 加 霜 0. 315 应 丁 解 牛 0. 122 
表 1. 成语 语 义 透明 度 部 分 计算 结 
基于 实验 结果 我 们 将 分 析 影 响 成 语 语义 透明 度 的 因素 。 如 表 1 所 示 ， 语 义 透 明度 较 高 


的 “悬崖 峭壁 ”、“ 深 情 厚 谊 ”、“ 狼 否 虎 咽 ” 等 成 语 丝 为 联合 式 语法 结构 。 联 合式 语法 


结构 一 般 由 相近 词性 的 语素 构成 ， 成 语 一 般 都 两 个 词语 构成 ， 构 成 联合 式 成 语 的 两 个 词语 


一 般 都 具有 相同 的 语法 结构 。 如 构成 “于 三 落 四 ”的 两 个 词 都 是 动 宾 结 构 ， 为 动词 性 词 


语 ;构成 “ 悬 峙 峭壁 ”的 两 个 词 皆 是 定 中 结构 ， 名 词性 词语 。 


在 这 些 联合 式 成 语 的 内 部 语义 关系 也 具有 一 些 特 点 ， 往 往 成 语 的 语义 与 组 成 成 语 的 两 


个 词语 具有 语义 相等 或 相近 的 特点 。 如 “深情 厚谊 ”中 的 “深情 ”与 “厚谊 ”在 语义 上 者 


表示 友谊 深厚 ， “ 狼 否 虎 咽 ”中 的 “ 狼 否 ”、“ 虎 咽 ” 都 表示 吃 东西 又 急 又 忙 。 由 于 构成 


成 分 的 语义 相近 ， 从 构成 部 分 的 语义 推 知 整个 成 语 
愿 ”、“ 优 胜 劣 汰 ”都 属于 此 类 型 的 成 语 。 
AABB 联 合式 成 语 的 语义 透明 度 也 相对 较 高 。 词 语 重 登 是 汉语 的 一 种 语法 手段 ， 词 语 在 


高 。“ 心 甘 情 


Hm 


I 意义 也 就 更 容易 ， 语 义 透 明度 也 就 更 


E 车 之 后 ， 语 义 发 生 了 一 些 变化 。 李 明 宇 在 《 论 词语 重 夺 的 意义 》 中 提 到 ， 重 锥 的 基本 语 


法 意义 是 调 量 ， 即 量 的 变化 。 重 合式 成 语 表示 的 也 是 量 的 增加 。 如 “家 家 户 户 ” 指 每 一 家 


每 一 户 ， 所 有 人 家 。 与 重复 之 前 的 “家 ”、 
色 


语义 即 可 ， 所 以 语义 透明 度 相 对 较 高 。 
前 面 我 们 提 到 成 语 的 语义 透明 度 整体 偏 低 ， 我 们 猜想 成 语 的 文化 意义 是 导致 语义 透明 
度 的 重要 因素 之 一 。 很 多 成 语 是 对 古代 典籍 和 历史 事件 的 概括 和 总 结 ， 饱 含 着 丰富 的 文化 


意义 ， 其 意义 很 难 从 字 再 


语义 透明 度 。 从 表示 结果 来 看 ， 整 体 结果 皆 低 于 0.3， 若 不 了 解 这 些 成 语 背后 的 故事 ， 其 


“ 户 ” 相 比 ， 语 义 上 数量 增加 。“ 形 形 色 
”、“ 吞 否 吐 吐 ” 都 是 此 类 成 语 。 该 类 AABB 重 复 联合 式 成 语 ， 其 形式 和 意义 都 存在 量 增 
加 ， 所 以 由 原来 的 组 成 成 分 A、B+ 


E 知 整个 成 语意 义 ， 只 用 在 原来 的 语义 上 多 一 项 量 增加 的 


推 知 。 如 表 1 后 半 段 所 示 ， 我 们 计算 了 部 分 概括 历史 事 伯 


F 成 语 的 
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语义 很 难 从 其 组 成 成 分 的 语义 推 知 。 如 “三 顾 茅 访 ” 如 果 了 解 刘备 访 聘 诸葛 亮 的 故事 ， 即 
知 该 成 语 “ 比 喻 真心 诚意 ， 一 再 邀请 ”。 成 语 不 仅 是 一 种 语言 现象 ， 也 是 一 种 文化 现象 

成 语 蕴 含 的 文化 意义 在 一 定 程度 上 使 得 其 语义 透明 度 比较 低 。 

同时 汉语 成 语 具有 表意 双 层 性 的 特点 ， 刘 洁 修 (1985) 将 成 语 的 意义 分 为 三 类 成语 
的 字面 义 、 成 语 的 引申 义 和 成 语 的 比喻 义 。 字 面 义 即 为 组 成 成 语 的 语素 意义 的 直接 相 加 ， 

引申 义 和 比 喻 义 是 在 字面 意义 的 基础 上 衍生 出 的 新 义 。 字 面 义 与 衍生 义 的 关联 度 也 是 影响 
成 语 语义 透明 度 的 重要 因素 。 

当 字面 义 与 衍生 义 关联 度 高 时 ， 成 语 的 语义 透明 度 相对 较 高 。 例 如 构成 “日 新 月 异 ” 的 
四 个 语素 都 为 常用 语素 ， 意 义 也 比较 简单 ， 字 面 意义 的 简单 相 加 “每 天 每 月 都 有 新 的 变 
化 ”， 常 用 义 项 为 字面 意义 引申 出 来 的 意义 “形容 进步 、 发 展 很 快 ”。 该 “日 新 月 异 ” 党 
用 的 义 项 并 虽然 非 简单 的 字面 意义 ， 但 与 字面 意义 的 关联 度 高 ， 并 且 字 面 意义 是 由 构成 成 
语 语素 的 常用 义 项 的 简单 相 加 。“ 雪 上 加 霜 ”的 常用 义 项 是 其 比喻 意义 “比喻 接连 遭受 灾 
难 ， 损 害 愈加 严重 ”， 该 比喻 义 由 字面 义 隐喻 而 来 。 字 面 义 与 衍生 义 关联 度 相对 比较 高 ， 
从 字面 义 推 知 比喻 义 比 较 容易 ， 所 以 语义 透明 度 较 高 。 “小心翼翼 ”的 字面 义 为 “严肃 共 
和 敬 ”， 常 用 义 项 “现形 容 谨 慎 小 心 ， 一 点 不 敢 疏 忽 ”， 字 面 义 与 常用 义 项 之 间 的 关联 度 相 
对 较 低 ， 并 且 “ 翼 翼 ” 在 现代 汉语 中 不 能 单独 成 词 ， 其 意义 “严肃 蕉 敬 ”在 现代 汉语 中 少 
用 ， 所 以 致使 “小 心机 翼 ” 的 语义 透明 度 低 。 

综 上 ， 经 过 实验 计算 我 们 发 现 语义 透明 度 相对 较 高 的 成 语 多 为 联合 式 语法 结构 ， 并 且 
成 语 整体 的 语义 与 两 个 组 成 部 分 的 语义 经 常 相 等 或 相近 。 实 验 结果 表明 成 语 的 语义 透明 度 
整体 偏 低 ， 这 是 因为 成 语 蕴含 着 丰富 的 文化 意义 ， 若 不 了 解 成 语 背 后 的 文化 故事 ， 便 很 难 
理解 成 语 的 语义 ， 致 使 其 语义 透明 度 低 ， 成 语 字面 义 与 衍生 之 间 的 关联 度 也 是 影响 成 语 语 
义 透明 度 的 关键 因素 ， 关 联 度 高 则 语义 透明 度 也 高 。 

4. 应 用 

经 过 以 上 分 析 ， 语 义 透明 度 较 高 的 成 语 相 对 来 说 ， 结 构 简单 ， 语 义 易 从 字面 推 知 ， 在 
教学 过 程 中 ， 教 师 可 以 先 教授 这 部 分 语义 透明 度 较 低 的 成 语 ， 便 于 学 生理 解 掌握 。 对 于 部 
分 语义 透明 度 较 低 的 成 语 ， 例 如 “卧薪尝胆 ”、“ 东 施 效 到 ” 此 类 包含 成 语 故事 的 成 语 ， 
可 以 伴随 着 成 语 故事 进行 教学 ， 让 学 生 从 故事 领会 成 语 的 含义 。 


5 . 总 = 口 


本 文 基于 语义 透明 度 的 定义 ， 将 语义 透明 度 的 计算 转化 为 各 个 词素 的 语义 与 整 词语 义 
的 相似 度 的 计算 。 基 于 词 向 量 的 语义 透明 的 计算 公式 。 计 算 了 部 分 成 语 的 语义 透明 度 ， 成 
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语 的 语义 透明 度 整 体 偏 低 ， 这 与 成 语 的 表意 双 层 性 特点 密切 相关 ;汉语 成 语 包 含 丰富 的 文 
化 意义 也 是 致使 成 语 透 明度 偏 低 的 因素 。 
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